Phân loại tài nguyên Web

Phân loại tài nguyên Web_chìm

Để tự động xác định một tài nguyên web có phải thuộc dạng web nổi hay web chìm hay không là một việc khó. Một tài nguyên được đánh dấu bởi một search engine, thì không nhất thiết nó thuộc loại web nổi, bởi vì các tài nguyên trên mạng có thể được tìm thấy bằng nhiều phương pháp khác nhau (như Sitemap Protocol, mod oai, OAIster) thay vì các phương pháp dò tìm (crawling) truyền thống. Nếu một máy tìm kiếm cung cấp một đường dẫn của một tài nguyên nào đó trong một kết quả tìm kiếm cụ thể, có thể cho đó là web nổi. Không may là, các máy tìm kiếm không phải không nào cũng cung cấp tất cả các đường dẫn này (backlink). Ngay cả khi có backlink, cũng không cách nào để phát hiện ra nguồn này có cung cấp đường dẫn của chính nó tới các trang web nổi mà không phải crawling toàn bộ trang web hay không. Ngoài ra, cũng có trường hợp một tài nguyên ẩn nấp trên web nổi, và một máy tìm kiếm nào đó chưa tìm ra nó. Do đó, nếu chúng ta có một tài nguyên độc quyền, chúng ta không thể biết chắc chắn tài nguyên đó ẩn nấp trên web nổi hoặc web chìm mà chưa qua crawl (dò tìm) trang web đó.

Hầu kết công việc phân loại kết quả tìm kiếm đã được thư mục hóa web nổi bằng các đề tài. Để phân loại tài nguyên web chìm, Ipeirotis et al đã giới thiệu một thuật toán cho phép phân loại một trang web chìm thành các thư mục mà tạo ra nhiều hit nhất dựa trên vài lựa chọn cẩn thận, các truy vấn-tập trung vào-chủ đề. Các chỉ mục của deep web đang phát triển gồm có OAIsters tại đại học Michigan, Intute tại đại học Manchester, Infomine tại đại học California tại Riverside, và DirectSearch (bởi Gary Price). Các xếp loại này đứng trên một thách thức là việc tìm kiếm web chìm chia ra 2 cấp độ thư mục hóa. Cấp độ 1 là các trang được thư mục hóa thành các chủ đề theo chiều dọc (như sức khỏe, du lịch, ô tô) và các chủ đề-phụ tùy theo tính chất của các nội dung nằm dưới các database (cơ sở dữ liệu) của chúng.

Thách thức lớn hơn nữa là để thư mục hóa và biểu đồ hóa các thông tin trích xuất từ các nguồn web chìm theo nhu cầu người dùng-cuối. Các bản báo cáo tìm kiếm web chìm không thể hiển thị các URL như các tìm kiếm thông thường. Người dùng-cuối mong chờ các công cụ tìm kiếm không chỉ tìm ra những gì họ muốn một cách nhất mà còn phải hiển thị kết quả đó một cách trực quan và thân thiện với người dùng nữa. Để hiểu được ngữ nghĩa, các báo cáo tìm kiếm phải hiểu sâu vào nội dung nằm dưới các tài nguyên này hoặc là người dùng sẽ bị lạc lối trong biển URL mà nội dung đằng sau nó chả ăn nhập gì cả. Định dạng mà các kết quả tìm kiếm hiển thị ra rất phong phú tùy theo chủ đề đặc thù của tìm kiếm nào và loại nội dung được phô ra. Thách thức này là tìm ra và biểu đồ hóa các thành phần dữ liệu tương tự từ nhiều nguồn khác nhau sao cho các kết quả tìm kiếm được sắp xếp trong một định dạng thống nhất trên bản báo cáo tìm kiếm bất kể nguồn tài nguyên mà nó lấy từ đâu.

Tài liệu tham khảo

WikiPedia: Web_chìm http://thehackernews.com/2016/02/deep-web-search-e... //citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1... http://ilpubs.stanford.edu:8090/725/ //doi.org/10.1016%2Fj.acalib.2004.04.010 https://www.nytimes.com/2009/02/23/technology/inte... https://www.questia.com/article/1G1-370513892/how-... https://www.sciencedirect.com/science/article/pii/... https://www.theguardian.com/technology/2009/nov/26... https://www.truthfinder.com/infomania/technology/d...